小队列的肿瘤外显子临床预后意义
因为早期测序费用高昂,所以绝大部分测序队列其实都是小队列 10~100人的多组学(2010附近)数据仅仅是描述性分析即可,就算是尝到了新技术的福利。(有点类似于2019附近的10x单细胞文章)
但是伴随着TCGA计划的圆满谢幕,多组学测序队列很难有“出头之日”(发表见刊),因为TCGA计划的多种癌症都是好几百人的队列。大家自己的队列相比起来通常只能说是小队列,很难有新颖之处,大家喜欢抓的一个可以发表的点就是中国人群队列。另外一个点就是临床预后意义,只要你当初收集病人样品的时候有比较好的临床随访,数据分析就很容易跟临床各个性状去关联,虽然样品数量小但是有结论总比没有好。
比如 Ye et al. Exp Hematol Oncol 的文章 《Correlation of mutational landscape and survival outcome of peripheral T-cell lymphomas》,就是针对 peripheral T-cell lymphoma (PTCL). 这个疾病收集了他们医院从November 2011 to December 2017的时期的53个病人。值得注意是的,这个时候研究者并没有采取肿瘤全外显子哦,而是 659-gene panel ,它这个捕获芯片信息在 approximately 2.4 Mb from 659 genes (see Additional file 1: Table S1)
其实肿瘤全外显子和肿瘤基因panel测序数据分析大同小异,我们生信入门马拉松授课团队的教学队长(nickier)在《生信技能树》和《生信菜鸟团》公众号都有相关知识整理专辑,比如《肿瘤外显子》专栏的**目录(节选)**如下:
(一)读文献并且下载测序数据 (二)质控与去接头 (三)比对 (四)比对结果的质控 (番外篇)bam文件载入igv可视化 (五)GATK的最佳实践 (六)vcf文件的注释及ANNOVAR的使用 (七)maftools可视化 (八)不同注释软件的比较(上):安装及使用 (八)不同注释软件的比较(中):注释后转成maf文件 (八)不同注释软件的比较(下):可视化比较maf文件
目前绝大部分医院的肿瘤相关突变数据的上游测序fastq文件处理都是公司代劳,流程是经典的GATK套装,主要是耗费计算机资源而已,如下所示:
从上游测序fastq文件拿到每个病人的somatic突变信息,包括snv和cnv,就可以进行后续统计可视化啦。如果研究者在文献里面公开了测序fastq文件也可以走流程自己拿到somatic突变位点。
突变全景图
只需要公司给出来了每个病人的somatic突变信息,包括snv和cnv,这个文章就是在文献附件给出来了突变信息。We identified 856 non-dbSNP variants (750 SNVs and 106 Indels) within the coding regions of 334 genes, includ- ing 176 genes mutated in ≥ 2 cases (see Additional file 2: Table S2).
自己很容易走一下maftools包进行各种各样的统计可视化的,最常见的就是突变全景图:
突变全景图很容易看到哪些基因在我们的小队列群体里面突变次数最多:TET2 was the most frequently mutated gene (64%), followed by RHOA (43%), PCLO (23%), DNMT3A (19%), IDH2 (17%), PIEZO1 (17%) and TP53 (15%).
然后突变次数比较多的基因也可以富集到通路,不过这时候通常是并不会去进行go和kegg的超几何分布检验,往往是看生物学背景知识,挑选自己的感兴趣的疾病的最出名的通路。
epigenetic/chromatin modifications (n = 40, 75% T-cell activation (n = 39, 74% the DNA repair/ TP53 pathway (n = 34, 64% the RTK pathway (n = 33, 62% the PI3K/AKT signaling/mTOR pathways (n = 23, 43% transcriptional regulation (n = 23, 43% JAK- STAT pathway (n = 22, 42% the APC (Wnt) pathway (n = 16, 30% the MAPK pathway (n = 15, 28% the TCR pathway (n = 12, 23% and the NF-κB pathway (n = 11, 21%)
临床信息关联
前面的肿瘤突变全景图只需要你有每个病人的somatic突变信息,包括snv和cnv,就很容易制作。但是这样的信息其实十年前的各种文章早就发表了几十次了,实在是很难有新颖。不过,这个文章针对 peripheral T-cell lymphoma (PTCL). 这个疾病算是比较小众,竞争应该是没有那么激烈啦。它也有一下亚型:
AITL: Angioimmunoblastic T-cell lymphoma; ALK: Anaplastic lymphoma kinase; ALCL: Anaplastic large cell lymphoma; PTCL-NOS: Peripheral T-cell lymphoma, not otherwise specified;
不过,这样的小队列的肿瘤外显子数据分析结果想发表,错过了第一波测序红利的今天,就需要引入临床信息关联,大家很容易想到的临床预后意义就是最简单的临床信息关联啦。
Epigenetic/chromatin modifiers were reported to be frequently mutated in AITL patients. Given that our study cohort was comprised mainly AITL patients (28/46), we further analyzed survival in this subtype of patients. After we excluded 7 patients who have received epigenetic therapy, AITL patients with IDH2 mutations had a superior PFS compared to patients without mutations
如下所示,针对 AITL: Angioimmunoblastic T-cell lymphoma; 这个肿瘤亚型的生存分析 :
毫无疑问,生存分析肯定是挑选有统计学意义的,我在生信技能树多次分享过生存分析的细节;
人人都可以学会生存分析(学徒数据挖掘) 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢? 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? 学徒作业-两个基因突变联合看生存效应 TCGA数据库里面你的基因生存分析不显著那就TMA吧 对“不同数据来源的生存分析比较”的补充说明 批量cox生存分析结果也可以火山图可视化 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析 多测试几个数据集生存效应应该是可以找到统计学显著的! 我不相信kmplot这个网页工具的结果(生存分析免费做) 为什么不用TCGA数据库来看感兴趣基因的生存情况 200块的代码我的学徒免费送给你,GSVA和生存分析 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug) TCGA数据库生存分析的网页工具哪家强 KM生存曲线经logRNA检验后也可以计算HR值
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
学徒作业
阅读文献《Correlation of mutational landscape and survival outcome of peripheral T-cell lymphomas》,认真理解突变全景图和临床信息关联分析的结论。
然后查看附件,并且依据附件信息绘制文章的图表:
Additional file 1: Table S1. Gene list. Additional file 2: Table S2. Somatic mutations detected in patients with PTCL. Additional file 4: Table S3. Patients’ characteristics based on gene mutational status Additional file 5: Table S4. Impact of mutations on the efficacy of CHOP‐ like chemotherapy.
如果你完成这个学徒作业有困难,但是又确实有自己的肿瘤外显子相关项目数据需要处理,那么这个:重磅课程来袭-专注于肿瘤外显子数据处理 可能是会适合你!